完全监督的显着对象检测(SOD)方法取得了长足的进步,但是这种方法通常依赖大量的像素级注释,这些注释耗时且耗时。在本文中,我们专注于混合标签下的新的弱监督SOD任务,其中监督标签包括传统无监督方法生成的大量粗标签和少量的真实标签。为了解决此任务中标签噪声和数量不平衡问题的问题,我们设计了一个新的管道框架,采用三种复杂的培训策略。在模型框架方面,我们将任务分解为标签细化子任务和显着对象检测子任务,它们相互合作并交替训练。具体而言,R-NET设计为配备有指导和聚合机制的搅拌机的两流编码器模型(BGA),旨在纠正更可靠的伪标签的粗标签,而S-NET是可更换的。由当前R-NET生成的伪标签监督的SOD网络。请注意,我们只需要使用训练有素的S-NET进行测试。此外,为了确保网络培训的有效性和效率,我们设计了三种培训策略,包括替代迭代机制,小组智慧的增量机制和信誉验证机制。五个草皮基准的实验表明,我们的方法在定性和定量上都针对弱监督/无监督/无监督的方法实现了竞争性能。
translated by 谷歌翻译
事件参数提取(EAE)的目的是从文本中提取具有给定角色的参数,这些参数已在自然语言处理中得到广泛研究。以前的大多数作品在具有专用神经体系结构的特定EAE数据集中取得了良好的性能。鉴于,这些架构通常很难适应具有各种注释模式或格式的新数据集/方案。此外,他们依靠大规模标记的数据进行培训,由于大多数情况下的标签成本高,因此无法获得培训。在本文中,我们提出了一个具有变异信息瓶颈的多格式转移学习模型,该模型利用了信息,尤其是新数据集中EAE现有数据集中的常识。具体而言,我们引入了一个共享特定的及时框架,以从具有不同格式的数据集中学习格式共享和格式特定的知识。为了进一步吸收EAE的常识并消除无关的噪音,我们将变异信息瓶颈整合到我们的体系结构中以完善共享表示。我们在三个基准数据集上进行了广泛的实验,并在EAE上获得新的最先进的性能。
translated by 谷歌翻译
准确估计电池的健康状况(SOH)有助于防止电池供电的应用出乎意料的失败。随着减少新电池模型培训的数据需求的优势,转移学习(TL)是一种有前途的机器学习方法,该方法应用了从源电池中学到的知识,该方法具有大量数据。但是,尽管这些是成功的TL的关键组成部分,但很少讨论源电池模型是否合理以及可以传输的信息的哪一部分的确定。为了应对这些挑战,本文通过利用时间动态来协助转移学习,提出了一种可解释的基于TL的SOH估计方法,该方法由三个部分组成。首先,在动态时间扭曲的帮助下,放电时间序列的时间数据被同步,从而产生了循环同步时间序列的翘曲路径,这些时间序列负责使周期上的容量降解。其次,从周期同步时间序列的空间路径中检索的规范变体用于在源电池和目标电池之间进行分布相似性分析。第三,当分布相似性在预定义的阈值范围内时,通过从源SOH估计模型转移常见的时间动力学来构建一个综合目标SOH估计模型,并用目标电池的残留模型补偿错误。通过广泛使用的开源基准数据集,通过根平方误差评估的提议方法的估计误差高达0.0034,与现有方法相比,准确性提高了77%。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
在本文中,我们在CVPR 2022中提供了EGO4D自然语言查询挑战的技术报告。由于对视频内容的全面了解,自然语言查询任务是具有挑战性的。大多数以前的工作基于第三人称视图数据集解决了此任务,而在以自我为中心的视图中,很少有研究兴趣。不过,已经取得了巨大进展,我们注意到以前的作品无法很好地适应以自我为中心的视图数据集,例如,ego4d主要是因为两个原因:1)ego4d中的大多数查询都有很小的时间持续时间(例如,少于5秒钟);2)EGO4D中的查询面临着对长期时间订单的更复杂的视频理解。考虑到这些,我们建议解决这一挑战的解决方案,以解决上述问题。
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译
密集的视频字幕旨在为未修剪视频中的一系列事件生成相应的文本描述,这些事件可以分为两个子任务,即事件检测和事件字幕。与以前分别解决这两个子任务的作品不同,最近的作品着重于增强两个子任务之间的任务间关联。但是,由于其特定于任务的解决方案的巨大差异,设计用于事件检测和字幕的任务间相互作用并不是微不足道的。此外,以前的事件检测方法通常会忽略事件之间的时间依赖性,从而导致事件冗余或不一致问题。在本文中,我们将事件检测定义为序列生成任务,并提出一个统一的预训练和微调框架,以自然增强事件检测和字幕之间的任务间关联。由于该模型将每个事件预测为以前的事件为上下文,因此事件之间的相互依赖性被充分利用,因此我们的模型可以检测到视频中更多样化和一致的事件。 ActivityNet数据集上的实验表明,我们的模型优于最新方法,并且在对大型视频文本数据进行预训练时,可以进一步提高。代码可在\ url {https://github.com/qiqang/uedvc}上获得。
translated by 谷歌翻译
课堂分配在学习深分类器中起着重要的作用。当测试集中每个类的比例与训练集不同时,分类网的性能通常会降低。由于疾病的患病率在位置和时间上有所不同,因此这种标签分布转移问题在医学诊断中很常见。在本文中,我们提出了第一种解决医疗图像分类标签转移的方法,该方法有效地适应了从单个培训标签分布中学到的模型,以使其成为任意未知的测试标签分布。我们的方法创新了分配校准以学习多个代表性分类器,这些分类器能够处理不同的一级分布。当给出测试图像时,不同的分类器通过一致性驱动的测试时间适应动态聚合,以处理未知的测试标签分布。我们在两个重要的医学图像分类任务上验证方法,包括肝纤维化分期和COVID-19的严重性预测。我们的实验清楚地表明了标签移位下的模型性能下降。通过我们的方法,模型性能可显着改善所有测试数据集,这些数据集具有不同的标签变化,用于两项医学图像诊断任务。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的端到端集团协作学习网络,称为GCONET+,该网络可以有效,有效地(250 fps)识别自然场景中的共呈含量对象。提出的GCONET+基于以下两个基本标准,通过采矿共识表示,实现了共同降低对象检测(COSOD)的新最新性能:1)组内紧凑型,以更好地提高共同空位之间的一致性通过使用我们的新颖组亲和力模块(GAM)捕获其固有共享属性的对象; 2)组间可分离性通过引入我们的新组协作模块(GCM)条件对不一致的共识进行调理,从而有效抑制嘈杂对象对输出的影响。为了进一步提高准确性,我们设计了一系列简单但有效的组件,如下所示:i)在语义级别促进模型学习的经常性辅助分类模块(RACM); ii)一个置信度增强模块(CEM)帮助模型提高最终预测的质量; iii)基于小组的对称三重态(GST)损失指导模型以学习更多的判别特征。对三个具有挑战性的基准测试(即可口可乐,COSOD3K和COSAL2015)进行了广泛的实验,这表明我们的GCONET+优于现有的12个尖端模型。代码已在https://github.com/zhengpeng7/gconet_plus上发布。
translated by 谷歌翻译
It has been witnessed that learned image compression has outperformed conventional image coding techniques and tends to be practical in industrial applications. One of the most critical issues that need to be considered is the non-deterministic calculation, which makes the probability prediction cross-platform inconsistent and frustrates successful decoding. We propose to solve this problem by introducing well-developed post-training quantization and making the model inference integer-arithmetic-only, which is much simpler than presently existing training and fine-tuning based approaches yet still keeps the superior rate-distortion performance of learned image compression. Based on that, we further improve the discretization of the entropy parameters and extend the deterministic inference to fit Gaussian mixture models. With our proposed methods, the current state-of-the-art image compression models can infer in a cross-platform consistent manner, which makes the further development and practice of learned image compression more promising.
translated by 谷歌翻译